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基于 深度 学 习 的 图 像 风格 迁移 研究 综述 
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Jj 要 : 图 像 风 格 迁 移 是 一 种 用 不 同 风格 泻 染 图 像 语 义 内 容 的 图 像 处 理 方法 。 随 着 深度 学 习 的 兴起 ， 图 像 风格 迁移 获 
得 了 进一步 的 发 展 ， 并 取得 了 一 系列 突破 性 的 研究 成 果 。 其 出 色 的 风格 迁移 能 力 引起 了 学 术 界 和 工业 界 的 广泛 关注 ， 
具有 重要 的 研究 价值 。 为 推进 基于 深度 学 习 的 图 像 风 格 迁 移 的 技术 研究 ， 对 目前 的 主要 方法 和 代表 性 工作 进行 了 归纳 
与 探讨 。 首 先 回 顾 了 非 参 数 的 图 像 风格 迁移 ,详细 介绍 了 目前 主要 的 基于 深度 学 习 的 图 像 风 格 迁 移 的 基本 原理 和 方法 ， 
分 析 了 图 像 风 格 迁移 在 相关 领域 中 的 应 用 前 景 ， 最 后 总 结 了 基于 深度 学 习 的 图 像 风格 迁移 目前 存在 的 问题 与 未 来 的 研 
完 方 向 。 

关键 词 : 图 像 风格 迁移 ; 深度 学 习 ; 迁移 学 习 ; 纹理 合成 

中 图 分 类 号 : TP391 doi: 10.3969/j.issn. 1001-3695.2018.05.0270 


Survey of image style transfer based on deep learning 


Chen Shuhuan, Wei Yuke, Xu Le, Dong Xiaohua, Wen Kunzhe 
(School of Computer Science Guangdong University of Technology, Guangzhou 510006, China) 


Abstract: Image style transfer is an image processing method that renders the semantic content of an image in different styles. 
With the rise of deep learning, image style transfer has gained further development and has achieved a series of breakthrough 
research results. Its outstanding style transfer ability has attracted wide attention from academic and industrial circles and has 
important research value. In order to promote the technology research of image style transfer based on deep learning, this 


paper summarizes and discusses the current major methods and representative work. Firstly, this paper reviews the 


non-parametric image style transfer, and introduces the basic principles and methods of image style transfer based on deep 


learning, and analyzes the application prospect of image style transfer technology in related fields. At last, this paper 


summarizes the existing problems and future research directions of image style transfer based on deep learning. 
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的 图 像 时 , 最 终 的 图 像 合成 效果 较为 粗糙 , 难以 符合 实际 需求 。 

0 引 a 随 着 深度 学 习 错误 ! 未 找到 引用 源 。 错 误 ! 未 找到 引用 源 。 错 误 ! 未 找到 引用 源 。 的 兴起 ， 

传统 非 参 数 的 图 像 风 格 迁 移 方法 主要 基于 物理 模型 的 绘 什 Gatys 4 ARRURHSPUPS- 开创 性 地 提出 了 一 种 基于 卷 积 神经 网 络 
和 纹理 的 合成 。Efros SAPARAN 提出 了 一 种 简单 的 纹理 算 ”的 图 像 风格 迁移 ， 发 现 了 可 以 使 用 卷 积 神经 网 络 来 将 图 像 的 内 
法 ， 通 过 对 样本 纹理 进行 拼接 和 重组 以 合成 新 的 纹理 。 容 抽象 特征 表示 和 风格 抽象 特征 表示 进行 分 离 ， 并 通过 独立 处 
等 人 提出 了 一 种 基于 类 推 思想 的 方法 , 通 “ ， 理 这 些 高 层 抽象 特征 表示 来 有 效 地 实现 图 像 风格 迁移 ， 获 得 了 
过 图 像 特 征 映 射 关系 合成 具有 新 纹理 的 图 像 。 张 海山 等 人 宝 寺 非常 可 观 的 艺术 效果 ， 如 图 1 所 示 。 该 算法 的 核心 思想 是 使 用 
ASRS. 运用 多 层 纹 理 阵列 、 国 画 光 照 模 型 、 提 取 轮 廓 线 等 模块 ， ” 预 训 练 VGG 模型 凡人 分 别提 取 内 容 图 像 和 风格 图 像 的 高 
实时 绘制 3D "PES TCR AY LL A Set Be NRE A ARa 层 抽象 特征 表示 ， 然 后 从 随机 噪声 图 像 开 始 ， 通 过 和 迭代 优化 方 
提出 了 一 种 邻 域 一 致 性 度量 方法 ， 通 过 把 统计 特性 引入 相似 性 ” 式 生 成 具有 原 内 容 和 新 风格 的 合成 图 像 。 
度量 中 ， 以 提高 图 像 匹 配点 搜索 的 效率 。 虽 然 这 些 方法 已 经 获 Gatys $ APARANS 的 工作 引起 了 学 术 界 和 工业 界 的 广泛 
得 了 可 观 的 效果 ， 但 是 非 参数 的 图 像 风格 迁移 方法 只 能 提取 图 关注。 在 学 术 界 ， 大 量 的 后 续 研 究 被 提出 ， 主 要 包括 基于 图 像 
像 的 底层 特征 ， 而 非 高 层 抽象 特征 ， 在 处 理 颜 色 和 纹理 较 复 杂 ”和 迭代 和 基于 模型 迁 代 两 个 方面 。 其 中 ， 根 据 图 像 风 格 获取 方式 
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(MMD, Maximum Mean Discrepancy) [8][14]、 基 于 马尔 可 夫 


随机 场 (MRF, Markov Random Field) [15]、 以 及 基于 深度 图 像 
类 比 (DIA, Deep Image Analogy) [16]。 而 根据 模型 迭代 方式 的 


方法 , 分 析 了 
解决 的 问题 展开 了 深入 探讨 ， 并 提出 了 一 些 
的 建议 ， 为 进 


内 容 图 


不 同 ， 基 于 模型 迭代 的 主要 方法 可 以 归纳 为 基于 生成 模型 
[17][18][19] 和 基于 图 像 重 构 解码 器 [20][21]。 这 些 方法 成 功 地 应 
用 于 工业 应 用 软件 中 ， 如 Prisma, Ostagram，Deep Forger 等 热 
门 应 用 软件 。 


图 1 Gatys 等 人 的 图 


本 文系 统 综述 了 目前 主要 的 基于 深度 学 习 的 图 像 风 格 迁 移 
其 最 新 的 研究 成 果 和 应 用 前 景 ， 以 及 对 目前 尚 待 
有 实际 参考 价值 
步 的 深入 研究 葛 定 了 一 定 的 基础 ， 最 后 总 结 了 


未 来 所 面临 的 挑战 和 发 展 趋势 。 
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基于 深度 学 习 的 图 像 风格 迁移 方法 
本 节 


述 了 目前 主要 的 基于 深度 学 习 的 图 像 风 格 迁 移 方 
必 和 基 于 模型 迭代 两 类 ， 如 表 1 所 示 。 第 


类 是 直接 在 白 噪 声 图 像 上 进行 优化 迭代 来 进行 风格 迁移 ， 其 


沁 化 目标 是 
以 网 络 前 馈 的 方式 实现 快速 风格 迁移 ， 


图 像 ,而 第 二 类 是 迭代 地 优化 神经 网 络 模型 ， 
其 优化 目标 是 神经 网 络 


mn 


模型 。 以 下 将 对 这 两 类 方法 展开 详细 的 探讨 。 
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.1 基于 图 像 和 迭代 的 图 像 风 格 迁 移 方法 
基于 图 像 迭 代 的 目标 是 使 得 白 噪 声 图 像 同 时 匹配 内 容 图 像 


的 内 容 特征 表示 和 风格 图 像 的 风格 特征 表示 ， 最 终 获得 风格 化 


的 合成 图 像 。 
场 和 基于 深度 图 像 类 比 这 三 类 


以 下 将 对 基于 最 大 均值 差异 、 基 于 马尔 可 夫 随 机 
有 代表 性 的 方法 展开 详细 的 探 


讨 。 
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的 抽象 特征 表示 ， 能 够 从 任意 图 像 中 提取 
通过 构造 Gram Ap [rg RAREST 可 
征 表示 。Li BE ASR 从 理论 上 证 明了 Gram 和 矩阵 的 匹配 
方式 等 价 于 最 小 化 特定 的 最 大 均值 差异 。 因 此 ， 本 文 将 基于 


.1.1 基于 最 大 均值 差异 


Gatys 等 人 waa. 最 早 发 现 通过 重 


& VGG 网 络 中 间 层 
象 的 内 容 表 示 ， 而 
风格 特 


以 提取 出 任意 图 像 的 


Gram 和 矩阵 的 风格 迁移 方法 归 类 为 基于 最 大 均值 差异 的 方法 。 


具体 而 言 ， 


,给 定 的 白 噪声 图 像 x ， 内 容 图 像 x 和 风格 图 像 x ， 


像 风格 迁移 效果 
Gatys 等 A BRURSISISUBR- 的 方法 的 总 损失 函数 表示 如 下 ; 

L (x, x, x, ) = &L, (x, x, ) + BL, (XX) (D 
其 中 : a 表示 图 像 内 容 损 失 函 数 工 (x,x) 的 权重 系数 ，p 表示 图 
像 风 格 损 失 函 数 工 (x,x,) 的 权重 系数 。 而 图 像 内 容 损失 函数 元 
表示 如 下 : 


1 N Mi 2 
Lxx) 2252.2 -B) 
其 中 : pr 表示 白 噪 声 图 像 在 VGG 模型 中 第 | 层 的 内 容 特 征 表 


(2) 


示 ， 友 表示 第 1 层 中 第 ;个 过 滤器 上 位 置 j 处 的 激活 值 ，pi 表 


示 内 容 图 像 在 VGG 中 第 | 层 的 内 容 特征 表示 ,而 风格 总 损失 函 
数 L IRU F: 


L 3 
L. (aje > «if, (3) 
其 中 : 工 表 示 在 VGG 网 络 中 用 来 提取 图 像 风 格 特征 表示 的 卷 积 


层 的 总 层 数 ， mw 表示 对 应 卷 积 层 1 的 图 像 风 格 损失 函数 的 权重 


因子 ，B 表示 在 1 层 中 的 风格 损失 函数 : 


1 N, M, 


"ava 2,246 -4;) 


1 i=l j=l 


E, (4) 


Stef. GLA AL 分 别 表示 内 容 图 像 和 风格 图 像 的 Gram 矩阵 ， 


N, 表示 1 层 中 滤波 器 的 数量 ， Mi 表示 1 层 中 的 特征 图 的 大 小 。 


Gatys 等 人 使 用 


Gram 矩阵 来 定义 风格 损失 函数 , Gram HERE G, 


表示 如 下 : 


201808.00122v1 


" 
m 


chinaXiv 


| | 
录用 稿 HRR, F: 基于 深度 学 习 的 图 像 风 格 迁 移 研 究 综 述 
HL, pL 表示 图 像 在 第 1 层 中 第 ;个 过 滤器 上 位 置 处 的 激活 值 。 
G= DFF; © : ibid. i 
k 
其 中 ， GL 为 在 层 1 中 第 ;个 和 第 j 个 矢量 化 特征 映射 之 间 的 内 


el 图 像 风 格 迁 移 方法 归纳 表 


类 别 基本 方法 代表 性 工作 优点 缺点 
最 大 均值 差 Gatys 等 人 错误 ! 未 找到 引 
5 用 源 。。 
| 马尔 可 夫 随 Li 等 人 错误 ! 未 找到 引用 合成 图 像 的 质量 高 、 可 控 性 好 ， 易 于 调 参 ， 无 需 训练 "-" i 
基于 图 像 计算 时 间 较 长 , 对 预 训练 模型 的 依赖 性 大 。 
机 场 源 。。 数据 。 
TEAR 
深度 图 像 类 Liao 等 人 错误 ! 未 找到 引用 
比 源 。。 
Johnson 等 人 错误 ! 未 找到 
生成 模型 引用 源 。，Zhu 等 人 错误 ! 未 T 
uu 计算 速度 快 ， 可 用 于 视频 快速 风格 化 ， 目 前 工业 应 用 图 像 生成 质量 有 待 进一步 提高 ， 需 要 大 1 
基于 模型 找到 引用 源 。。 
. , 软件 的 主流 技术 。 的 训练 数据 。 
迭代 图 像 重 构 解 Li 等 人 错误 ! 未 找到 引用 
[I7 源 。。 


Re 
"SPI 方法 的 原理 ， 讨 论 了 不 同 的 超 参数 和 程式 化 属性 对 图 像 07000 0 m" mune 
风格 迁移 效果 的 影响 。Novak 4E A fessum. 提出 了 改进 Gatys 。 ”其 中 : m 是 y(g(x)) 的 基数 ， 即 区 域 块 的 数量 ，y (p(x)) 表示 
ag A mensam. 方法 的 一 些 途径 。 为 了 更 好 地 解释 和 完善 Gram 。 p(x) 中 的 一 个 区 域 块 ， 而 对 于 每 一 个 区 域 块 y, (p(x) 是 通过 


f 0) 


AE BE, Li 等 人 ,在 Gatys A j MRI. 工作 的 基础 。 归 一 化 互相 关 的 方法 查找 其 最 佳 匹配 块 yw (9(x,)) KER 
上 对 Gram 矩阵 展开 了 深入 的 探讨 ， 提 出 了 使 用 不 同 的 核 函 数 WTF: 

来 改进 风格 损失 函数 ， 如 线性 核 函 数 和 高 斯 核 函数 等 。 另 外 ， pe v,((x))-v,(9(%,)) (8) 
Gatys 4 A tesis. Ve fee CLL MIR AN BE, 容易 影响 纹 Pin, (P(x) v; ES) 

理 合成 ， 为 了 改善 这 个 问题 ，Risser 等 人 和 #998. 引入 了 直 图 像 内 容 损 失 函 数 五 的 表达 式 如 下 : 

方 图 损失 函数 ， 解 决 了 因 迭 代 优化 过 程 不 稳定 而 产生 图 像 纹 理 Bi oe o 
错乱 的 问题 。Yin Sette 提出 了 基于 内 容 感知 的 方法 ,该 方 TEES : 

法 能 有 效 地 控制 图 像 内 容 和 图 像 纹 理 的 合成 ， 进 一 步 提 高 合成 EWED y (x) 的 表达 式 如 下 : 

图 像 的 分 辩 率 。 人 T 


1.1.2 基于 马尔 可 夫 随 机 场 

THAR n] A B6 LG X5 AES Be AR IZ HER Rem 随后 ，Champandard 等 人 9 在 Li 等 人 工作 的 基础 
…， 它 描述 了 具有 同类 特征 信息 的 集合 。Li ASO 最 上 加 入 了 手工 添加 的 图 像 语义 映射 ,增强 了 对 合成 结果 的 控制 ， 
早 提出 了 马尔 可 夫 随 机 场 与 深度 卷 积 神经 网 络 结合 的 方法 ， 将 得 合成 结果 的 结构 更 为 合理 ， 并 且 显 著 提 高 了 合成 图 像 的 质 
图 像 特征 映射 分 割 成 许多 区 域 块 并 进行 匹配 ， 以 提高 合成 图 像 ” 量 。 
在 视觉 上 的 合理 性 ,具体 而 言 ,给 定 内 容 图 像 x 和 风格 图 像 x ， 1.1.3 基于 深度 图 像 类 比 


s 


[ici 


设 合成 目标 图 像 为 + ， 问 题 求解 可 以 表示 如 下 ; 图 像 类 比 的 概念 最 初 由 Hertzmann 4$ A etes. 提出 ， 
x’ =argmin E, (9(x).9(.,)) 2 BEALE YT RR A HR AIRZONE. D T OH 
T (6) 在 两 个 输入 图 像 之 间 找到 语义 上 有 意义 的 密集 对 应 关系 ，Liao 

+ oy() 等 人 Mma. 将 图 像 类 比 的 概念 与 深度 学 习 进 行 结合 ， 提 出 

其 中 : BANU, EE 表示 内 容 损失 函数 ，y(x) 表 了 一 种 通过 区 域 块 匹配 迭代 优化 的 深度 图 像 类 比方 法 。 这 种 方 


示 用 来 平滑 合成 图 像 的 正则 化 选项 , p(x) 表示 神经 网 络 模型 层 。 法 可 以 将 图 像 类 比 的 概念 应 用 到 深层 网 络 特征 空间 中 ， 寻 找 语 
次 中 的 特征 映射 集合 ， a 表示 内 容 图 像 损失 函数 的 权重 系数 ， ” 义 上 有 意义 的 稠密 对 应 关系 , 从 而 提高 图 像 风格 迁移 的 有 效 性 。 


ac, 表示 正则 化 选项 的 权重 系数 。 图 像 风 格 损失 函数 瓦 的 表达 深度 图 像 类 比 的 映射 关系 可 以 表示 为 A:A*::B:B*， 其 中 ， 
式 如 下 : AMB 为 未 知 变量 。 在 这 个 映射 关系 中 具有 两 个 约束 条 件 : A 


和 A 或 B 和 B” 具 有 相似 的 图 像 内 容 特征 ; A RU B sk AURI B^ 
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有 具有 相似 的 图 像 风 格 特征 。 因 此 ， 图 像 映射 关系 可 表示 为 


A(p) = B(Q,5(P)) f! A (p) = B'(o, (p) 


) 。 ifia, dort 


射 ， WE o, a(n (P)) = P 和 Pas» (Pra P)) = P E 


已 知 图 像 A 和 了 B 的 各 层 


象 特征 表示 F! 


深度 图 像 类 比方 法 首先 使 用 预 训 练 VGG 模型 分 别 计算 出 


和 FZ ， 其 中 , L 表示 


使 用 预 训 练 VGG 模型 中 的 层 数 。 在 第 工 


层 中 可 以 通过 最 近邻 
/x 


域 搜索 (nearest neighbor field search, NNFS) 求 得 深度 图 像 类 


比 的 映射 关系 。 虽然 ALB 为 未 知 变量 ， 
系 的 第 一 个 约束 ， 可 以 认为 A M AR B 


晶 是 根据 类 比 映 射 关 
Al B EYII VGG 


模型 中 具有 相似 的 高 层 抽象 特征 表示 ， 因 


此 可 以 有 FÀ = FI 


FS -Fio WA, gf, (p) 映射 关系 函数 可 以 表示 如 下 : 


P . 
9,,(p)-arggmin È 
q xeN(p).veN(q) 


xeN(p).yeN(q) 


点 N(p) 表示 点 p 附近 的 区 域 块 ， 


其 中 : 


[E (9) - F2 GE 


[Fé G) - FE O 


同 理 可 得 got, (p) AR 


射 关系 函数 。 根 据 以 上 深度 图 像 类 比 的 映射 关系 ， 在 预 训练 


VGG 模型 的 


象 特征 空间 中 ， 通 过 卷 积 映射 函数 CE, (.) 和 


高 层 往 


(RII, w4 


逆 映 射 特征 RE 的 反 卷 积 操作 ， 


可 求 得 具有 A ARM B 风格 的 合成 图 像 A， 以 及 具有 BW 


FI A" 风格 
所 示 。 
Gk. 深度 图 像 类 比 算法 
输入 : 两 张 RGB 颜色 空间 图 像 M pe 。 


的 合成 图 像 B。 具 体 算法 过 程 可 


输出 : 两 个 像素 空间 映射 关系 函数 o lg,  : 以 及 两 张 RGB jl 


WE A p. 
运算 过 程 : 
(Fa Yea’ 
Fi =F)» 


for L=5 to 1 do: 


最 近邻 域 搜 索 : 


以 用 伪 代 码 描述 如 下 


E 
HY 


(FEL, < 输入 A 和 ge 到 预 训练 V66 模型 中 提取 抽象 特征 。 
FÈ =F ， 随 机 初始 化 映射 关系 函数 p, Moa 


L L L L L 
Piw "ap Fr to Fr, Fa to Fs 
L L L L L 
Prsa” "P Fy to Fio du to Fae 
If L>1 then: 


图 像 重 构 : 


使 用 FE (gt) 和 CNNT (0) 对 RE 进行 反 卷 积 。 


FL < 加 权 上 映射 BI 和 REO o 


使 用 函数 gi， 将 PL 逆转 到 FL oka). 


使 Fr(oj,.) FI CNN? | (-) > RE 进行 反 卷 积 。 


FL HWE FE RU. 


最 近邻 搜索 上 采样 : 
上 采样 ppp 到 gs。 


ERR ar P gs。 。 


end 


end 


—— D 
pap = Pao ’ 


ED 
Poa = Poa ° 


A (p)= Y (B (0,0): 


xeN(p) 


B(p)=~ Y, (4(o CD) 


现 , 


550898. 的 工作 基础 上 实现 了 


约束 
自然 


N yeN(p) 
深度 图 像 类 比 的 方法 在 纹理 迁移 和 颜色 迁移 有 着 出 色 的 表 
但 是 计算 时 间 较 长 。He 等 人 Se 在 Liao 等 人 各 
一 对 一 和 一 对 多 的 图 像 颜色 迁移 ， 
法 主要 针对 图 像 的 颜色 进行 处 理 ， 在 满足 局 部 约束 和 全 局 
的 情况 下 ， 通 过 类 比 的 方法 进行 迭代 优化 ， 最 终生 成 效果 
的 新 图 像 。 


1.2 基于 模型 迭代 的 图 像 风 格 迁 移 方 法 


像 ， 
格 迁 
模型 


虽然 基于 图 像 和 迭代 的 方法 可 以 产生 效果 出 色 的 风格 合成 图 
但 是 存在 计算 效率 低下 的 问题 。 而 基于 模型 迭代 的 图 像 风 
移 方 法 使 用 了 大 量 的 图 像 来 训练 可 生成 风格 化 图 像 的 生成 
,很 大 程度 上 解决 了 图 像 风 格 迁 移 的 计算 效率 低下 的 问题 ， 


且 


可 以 与 基于 图 像 迭代 的 方法 进行 组 合 。 目 前 ， 应 用 市 场 上 


的 应 
模型 
探讨 
1.2.1 


像 风 
特定 
个 像 
型 提 


与 G 


用 程序 主要 使 用 基于 模型 迭代 的 方法 。 以 下 将 对 基于 生成 
和 基于 图 像 重 构 解码 器 这 两 类 具有 代表 性 的 方法 展开 详 旨 


基于 生成 模型 方法 
Johnson 等 人 “Pen 最早 提出 了 迭代 优化 生成 模型 的 图 
格 迁 移 方法 ， 亦 称 作 快速 风格 迁移 ， 如 图 2 所 示 。 这 种 方 
立 在 Gatys 等 人 算法 的 基础 上 ， 使 用 感知 损失 函数 为 某 种 
风格 训练 出 一 个 生成 模型 。 与 之 前 训练 生成 模型 时 使 用 逐 
素 比 较 的 损失 函数 相 比 ， 感 知 损失 函数 对 预 训 练 VGG 模 
取 的 高 层 抽 象 特征 表示 进行 平方 求 差 ， 这 部 分 的 问题 求解 
atys 等 人 算法 是 一 致 的 。 具 体 而 言 ， Johnson 等 人 的 方法 使 


1% 


26 po] Big RRR 作为 生成 模型 的 基本 组 件 ， 训 练 数据 使 


上 
f 
上 


其 中 
损失 
输入 
练 图 
格 图 


] COCO 数据 集 ea we， 感知 损失 函数 可 以 表示 如 下 : 


y= Eu AL (f (x). y.) 


* AL (f(x). y.) (12) 
+ Ay (F(x) 
ALS AM A, PHAR AR ULE BL. US 


函数 的 权重 习俗 和 图 像 平滑 函数 的 权重 系数 ，x 表示 网 络 
> f (x) 表示 生成 模型 函数 ，y 表示 预 训 练 VGG 模型 从 训 
像 中 提取 的 内 容 特 征 表示 ， y, 表示 预 训 练 VGG 模型 从 风 
像 中 提取 的 风格 特征 表示 。 

Johnson 等 人 的 工作 ”9 为 如 何 提高 图 像 风格 迁移 效 
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率 提供 了 一 个 很 好 的 启发 。 此 外 ，Ulyanov 等 人 的 工作 和 
PE 也 采用 了 类 似 的 网 络 架 构 进 行 ， 并 通过 实验 表明 了 在 生成 
模型 训练 过 程 中 , 使 用 实例 归 一 化 ?9 替代 批量 归 一 化 和 
误 ! 未 找到 引用 源 。 可 以 显著 提高 生成 图 像 的 质 E. Wang AE A RRR. 
提出 了 一 种 多 模式 卷 积 神经 网 络 ， 该 方法 考虑 了 颜色 和 亮度 通 
道 的 特征 表示 ， 以 多 尺度 分 级 地 执行 风格 化 ， 有 效 解决 了 纹理 


比例 适 配 的 问题 ， 


效果 。 


录用 稿 KiJ, X. 深度 学 习 的 迁移 研究 综述 


在 高 分 辩 率 图 像 上 产生 了 可 观 的 图 像 生 成 
Zhang 45 A *USHSSISW- 构建 了 一 个 可 以 训练 多 种 风格 的 
生成 模型 ， 实 现 了 多 风格 的 快速 风格 迁移 。Huang 等 A Peer 


OR 提出 了 一 种 自 适 应 实例 归 一 化 的 方法 ， 解 决 了 生成 模型 训 
练 需要 进行 风格 化 预定 义 的 问题 。 


relu1-2 prelu2—2 
Ls Ls 


Lretus-3 


Lrelua-3 


同样 有 着 出 色 的 效果 。Li A RR 将 马尔 可 夫 随 机 场 
与 生成 对 抗 网 络 相 结合 ,采用 对 抗 训练 的 方式 来 训练 生成 模型 ， 
使 得 生成 图 像 具 有 很 好 真实 感 。 随 后 提出 的 无 监督 的 生成 对 抗 
网 络 ， 如 CycleGAN MRR Di COGAN 铺 误 ! 未 找到 引用 源 。 和 | 
DualGAN 95837". > 其 中 CydeGAN 基于 循环 一 致 性 ， 
DiscoGAN 和 DualGAN 基于 机 器 翻译 的 对 偶 学 习 思 想 千 9 
于 。 这 些 优秀 的 对 抗 训练 模型 突破 了 训练 数据 需要 成 对 的 限制 ， 
成 功 实现 了 无 监督 的 迁移 学 习 ， 并 且 在 网 络 架 构 和 具体 实现 上 
基本 一 致 ,本 文 以 通用 性 较 好 的 CycleGAN 模型 为 例 进行 讲解 。 
Zhu 4g ABRUEBSHISI- 提出 的 CycleGAN 模型 包含 两 个 生成 式 模 
型 G 和 严 ， 以 及 两 个 判别 式 模型 p. 和 Dp, ， 并 且 使 用 了 循环 
一 致 性 作为 总 损失 函数 的 约束 条 件 。 在 CycleGAN 模型 中 ， 总 
损失 函数 包含 两 个 部 分 ， 即 对 抗 损失 函数 和 循环 一 致 性 损失 函 
数 ， 其 中 ， 对 抗 损失 函数 包含 向 前 映射 损失 和 向 后 映射 损失 两 


M 


部 分 。 LAT S > 给 定数 据 集 X Aly » 其 中 xeX， yeY» 
向 前 映射 损失 函数 表示 如 下 : 
Law (G,D,,X,Y) = E, pany) [log D,(y)] 
(13) 


+ E, Lg- Dy (G(x)))] 
同 理 ， 向 后 映射 损失 函数 表示 如 下 : 
Lean (F, Dy, Y, X) = E,- y,,,( [log Dy (x)] 
* E, ,,,,() 081 - Dy (F(3)))] 
而 循环 一 致 性 损失 函数 是 为 了 使 生成 式 模型 G 和 了 之 间 保 
持 一 致 性 ， 可 表示 如 下 : 
L4 (G.F) = E... [IF GG)) - xh] 


(14) 


+E uliecro»-»] — O? 
最 后 ，CycleGAN 的 总 损失 函数 表示 如 下 : 
L(G,F,D,.D,) = Leay (G, D,, X,Y) 
+L gay (G,D,y, X. Y) (16) 


+AL,,.(G, F) 


图 2 快速 风格 迁移 架构 
DEAD AE SCL Art A £i RR 在 图 像 风格 迁移 方面 的 应 


pretua-a 


其 中 : 4 表示 向 前 映射 和 向 后 映射 这 两 个 目标 函数 的 相对 重要 
CycleGAN 模型 的 对 抗 训练 的 优化 目标 


性 的 平衡 参数 。 最 终 ， 


表示 如 下 : 


G,F = argmin max L(G, F,D,,D,) 


(17) 


其 中 : G 和 pe 分 别 表 示 最 终 所 求 得 的 近似 最 优 的 两 个 生成 式 


模型 。 


ape 
Fe» 
而 判别 
变 得 困难 。 


前 的 生成 对 j 
模型 的 设 定 使 得 指 
此 外 ， 生 成 对 
化 来 进行 对 抗 训练 ， 而 不 是 根据 图 


练 方 


网 络 在 模型 而 相当 不 稳定 ， 


向 明确 的 图 像 风 格 迁 移 方法 实现 起 来 
抗 网 络 是 根据 图 像 散 度 分 布 的 迭代 优 


此 ,使 用 生成 对 抗 网 络 i 


行 


像 的 内 容 、 纹 理 和 颜色 ， 因 
图 像 风 格 迁 移 的 过 程 显得 难以 控制 。 


1.2.2 基于 图 像 重 构 解码 器 方法 


基于 图 像 迭 代 存 在 着 参数 调整 和 效率 低下 的 两 个 弊端 ， 而 


快速 风格 迁移 虽然 缓解 了 效率 低下 的 问题 ， 但 只 能 针对 特定 风 


格 进行 模型 训练 ， 
服 这 些 问题 ， 


且 仍 然 无 法 避免 参数 调整 的 问题 。 为 了 克 


Li i ea 


提出 了 一 种 基于 图 像 重 构 解码 


预 训 练 VGG 


重建 图 像 的 约束 条 件 


L=\L 


oui 


HP: on, 


outpui 


练 数据 使 / 


, 


tput I 


器 的 图 像 风格 迁 移 算法 ， 该 算法 不 再 
型 训练 ， 避 免 了 参数 调整 的 问题 。 

该 算法 使 用 多 层次 的 风格 化 策略 ， 如 图 

模型 作为 编码 器 ， 将 其 权重 固 

器 网 络 ， 以 便 将 VGG 特征 反 转 为 原始 图 像 ， 

计 成 与 编码 器 对 称 。 解 码 器 使 用 


需要 针对 特定 风格 进行 模 


首先 使 用 
于 训练 解码 
其 中 解码 器 被 设 
像素 重建 损失 和 特征 损失 作为 


3 所 示 ， 
定 


input 


其 损失 函数 表示 如 下 : 


By 4 DT ) B D(L pu ) : 


2 


(18) 


,和 了 ,分 别 表示 重 构 后 的 图 像 输 出 和 输入 图 像 ， 训 
的 是 COCO Aji AATRE, 表示 使 用 预 训练 


VGG 模型 编码 器 提取 的 图 像 特征 表示 ,4 表示 像素 重建 损失 和 
特征 损失 的 平衡 权重 系数 。 
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录用 稿 


i 


当 完 成 对 应 层 的 解码 器 训练 
De(-) 之 间 设 置 对 应 的 投影 函 
(whitening and coloring transform, WCT) 进行 程式 化 的 图 像 重 
体 来 说 , 给 定 内 容 图 像 x 和 风格 图 像 x, ,在 预 训练 YGG 
象 特征 表示 并 通过 白化 与 
像 和 风格 图 像 的 矢量 化 特征 


构 。 


模型 中 分 别提 取 它 们 在 特定 层 中 的 
着 色 和 转换 分 别 求 得 内 容 图 


数 ， 通 过 白 


Cet 


图 3 多 层次 风格 化 结构 


后 ， 在 编码 器 En(-) 和 解码 器 
化 和 着 


色 转 换 


H, =En(x,) AH, = De(x )， 然 后 求 得 对 应 层 的 风格 化 编码 结 
AH» PU UAE AE: 

H, -PPH, (19) 
Hd. ReE RES. RoE RED DA D, AIEA 
ERE p HT 和 H HT 的 对 角 和 矩阵, SBME E RUE, 分 别 是 协 方差 
JERE pg HT 和 ,HT PIE ACRE. fne, BEA VE IS ERO s 
De(-) 对 风格 化 编码 万 ,进行 解码 ， 可 获得 对 应 层 的 合成 图 像 


Y = De(H,.) « 73 Y SRGHE BEAR, 


Li Ai JJ SRRURIUSIR. t 


改善 了 文献 错误 ! 未 找到 引用 源 。 中 的 图 像 重 构 编 码 器 的 结构 ， 


并 增加 了 图 像 局 部 


E. jg RR AW. 错误 ! 未 找到 引用 源 。 的 后 处 理 


E, SKI 


了 照片 般 逼 真 的 快速 风格 迁移 , 与 Luan 55: SRR 提出 的 
深度 照片 风格 迁移 方法 的 效果 基本 一 致 。 


2 应 用 分 析 


随 着 基于 深度 学 习 的 图 像 风 格 迁 移 在 算法 和 
断 改 进 ， 图 像 风 格 迁 移 的 效果 得 到 很 大 的 提升 ， 


业 应 用 前 景 。 


看 的 不 


理论 方 


目前 ， 基 于 深度 学 习 的 图 像 风 格 迁 


前 ， 在 社交 网 络 上 流传 的 图 


习 像 美化 是 一 个 热门 应 用 技术 。 


图 像 反 


出 了 一 种 给 漫画 


SEE eus 
格 迁 移 的 出 现 为 


Chen 等 | BABES 用 源 。 


短 几 秒 内 将 用 


了 一 些 收费 的 图 


基于 深度 学 习 的 


传统 的 图 像 处 理 
行 模式 较为 固定 的 处 理 ， 而 基于 神经 网 络 的 
图 像 风 格 设计 带 来 了 更 多 的 想象 空间 。 
提出 了 一 种 内 容 感知 的 风格 迁移 方法 ， 同 
时 该 方法 可 有 效 地 应 用 于 图 像 修复 。Zhang 等 人 fan qu 
草图 上 色 的 方法 。 而 Prisma 是 第 一 款 免 费 提 供 
图 像 风 格 迁移 服务 的 移动 应 用 程序 ， 能 够 在 短 


LA) 
移 的 应 


Df DET 
主要 


像 大 多 经 过 软 


A 
Fo 


需要 特殊 的 专业 技能 ， 还 需要 大 量 的 手 
更 多 的 人 工 智能 技术 ， 将 可 以 大 幅度 地 降 
风格 迁移 是 一 个 可 考虑 的 解决 方案 。 例 如 


找到 


Dik aise 引用 源 。 


在 这 些 应 ) 
格 的 艺术 作品 ， 而 不 需要 


程序 的 帮助 下 ， 人 们 可 以 轻松 地 创造 出 属于 自己 风 

备 特殊 的 专业 技能 。 
b) 视 频 处 理 。 在 影视 娱乐 产业 中 ， 如 电影 、 电 视 、 动 漫 等 
影视 特效 技术 随处 可 见 。 但 是 ， 影 视 特效 技术 的 创作 不 仅 
劳动 ， 如 果 可 以 使 用 
氏 制作 成 本 ， 而 图 像 
, Anderson £% \#** 
E 使 用 光 流 和 深度 神经 网 络 来 进行 电影 风格 化 。Ruder 等 
引入 了 时 间 一 致 性 损失 函数 来 提高 视频 风格 化 后 


的 帧 之 间 的 连贯 性 。Chen 等 人 askaaaua. 构建 了 一 个 具有 时 间 
相关 性 的 网 络 模型 ， 它 可 以 包含 多 种 风格 ， 并 且 能 够 实时 风格 


化 在 线 视频 。Joshi E AAEREN 深入 研究 图 像 风格 迁移 中 更 


高 级 的 参数 空间 ， 并 找到 一 组 有 效 的 组 件 对 电影 场景 进行 印象 
派 风 格 化 。 
9 风格 设计 的 辅助 工具 。 图 像 风 格 迁 移 可 以 充当 有 用 的 畏 


助 工具 ， 例 如 艺术 绘画 创作 、 建 筑 艺 术 设计 、 服 装 艺术 设计 、 


游戏 场景 设计 等 等 。 


虽然 目前 还 没有 相关 的 参考 文献 或 成 功 的 


应 | 


案例 ， 但 这 很 有 可 能 会 成 为 未 来 的 研究 热点 。 
从 目前 的 研究 进展 来 看 ， 基 于 深度 学 习 的 图 像 风 格 迁移 正 


快速 发 展 ， 如 何 提高 算法 效率 和 图 像 质量 仍然 有 很 大 的 研究 空 


间 , 


3 


其 潜在 的 商业 价值 有 待 进一步 挖掘 。 
存在 问题 与 研究 方向 


基于 深度 学 习 的 图 像 风 格 迁移 的 算法 已 经 取得 了 显著 的 效 


果 ， 但 仍然 存在 一 些 尚 待 解决 的 问题 。 本 章 总 结 了 目前 主要 存 
在 的 问题 ， 并 提出 了 一 些 建议 。 
a) 参 数 调整 。 为 了 获得 令 人 满意 的 结果 ， 基 于 图 像 迭 代 方 


法 和 基于 模型 迭代 方法 都 需要 手动 调 参 ， 


特别 是 基于 模型 迭代 


方法 ， 每 次 调整 参数 后 都 要 重新 对 模型 进行 训练 。 虽 然 基 于 图 
像 重 构 编码 器 方法 能 缓解 了 参数 调整 的 问题 ， 并 且 不 需要 为 不 


Jn, 


同样 式 单独 训练 模型 ， 但 是 图 像 重 构 解 码 器 的 训练 过 程 较为 繁 


图 像 生 成 效果 


IFA AEE 


想 。 而 局 部 平滑 处 理 能 改善 基于 


图 像 重 构 解 码 器 的 方法 ， 但 会 使 得 风格 化 图 像 的 纹理 消失 ， 最 
终 的 效果 与 图 像 颜 色 迁 移 *“5 几乎 相似 。 因 此 ， 


种 既 简单 可 控 ， 又 能 保证 图 像 质量 的 方法 是 下 一 步 的 重要 研究 


方向 。 
基于 图 像 重 构 编码 器 方法 的 图 


如 果 在 不 考虑 模型 存储 容量 大 小 的 情况 下 ， 进 一 步 改善 
像 生成 质量 是 一 个 非常 值得 考虑 


的 下 


训练 VGG 模型 可 以 提取 区 


究 方向 ， 因 为 该 方法 可 以 有 效 地 避免 参数 调整 的 问题 。 
b) 预 训练 模型 的 限制 。Gatys APARE 发 现 了 使 用 预 
像 的 高 层 抽象 特征 ， 通 过 和 友 代 优化 


习 的 图 像 风 格 迁 移 方法 都 


而 可 以 实现 图 像 风 格 迁 移 。 到 目前 为 止 ， 大 多 数 基于 深度 学 


用 预 训练 YGG 模型 进行 图 像 特 征 


/和 


取 。 虽 然 预 训练 VGG 是 一 个 优秀 的 卷 积 神经 网 络 模型 ， 
特征 提取 方面 表现 出 色 ， 


在 
日 它 是 一 个 重量 级 的 模型 ， 存 在 体积 


户 的 照片 变 成 高 质量 的 艺术 画作 。 
像 风格 迁移 应 用 软件 ,产生 了 一 定 的 商业 价值 。 


随后 陆续 出 现 


庞大 和 计算 量 巨 大 的 问题 ， 并 且 最 初 并 不 是 专门 为 图 像 风 格 迁 


移 而 设计 的 。 因 此 ， 


SAL GEA VGG 模型 的 依赖 或 设计 出 
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更 精 小 、 更 有 效 的 特征 提取 器 是 推动 基于 深度 学 习 的 图 像 风格 
迁移 进一步 发 展 的 重要 途径 。 生 成 对 抗 网 络 或 许可 以 解决 预 训 
练 模型 的 限制 问题 ， 其 逼真 的 图 像 生 成 效果 有 利于 提高 生成 图 
像 的 质量 ， 而 且 基 于 散 度 分 布 的 优化 方式 与 基于 图 像 迭 代 的 相 
关 方法 具有 一 定 的 相似 度 ， 并 且 对 抗 训练 的 方式 在 获取 新 特征 
的 应 用 场景 中 具有 很 好 的 效果 。 
9 迁移 学 习 理论 的 完善 。 图 像 风 格 迁 移 是 迁移 学 习 中 的 一 
个 典型 用 例 。 目 前 ， 基 于 深度 学 习 的 迁移 学 习 方法 仍然 处 于 起 
步 阶段 ， 需 要 有 更 完备 的 数学 方法 和 理论 指导 。 迁 移 学 习 理论 
的 完善 对 基于 深度 学 习 的 图 像 风格 迁移 的 进一步 发 展 具有 非常 
重要 的 意义 。 而 通用 模型 的 相关 研究 工 人 错误 ! 未 找到 引用 源 。 
提出 了 设计 通用 性 强 的 神经 网 络 模 型 ， 以 提高 模型 的 迁移 学 习 
能 力 ， 对 图 像 风 格 迁 移 进一步 的 发 展 有 着 重要 的 指导 作用 。 

内 容 图 风格 图 


R] 
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d) 预 处 理 和 后 处 理 的 方法 。 为 了 使 得 最 终结 果 更 符合 实际 
应 用 ， 可 以 使 用 一 些 预 处 理 和 后 处 理 的 方法 ， 如 图 像 语义 分 割 
错误 ! 未 找到 引用 源 。 AR LS Rs 用 源 。 Fc 5g Bj 6 xp gg ERURHRSISAR 错误 ! 
未 找到 引用 源 。 ARSE TB Ah gg RR 错误 ! 未 找到 引用 源 。 等 . 这 些 预 处 理 
和 后 处 理 的 方法 对 提升 图 像 风 格 迁 移 的 效果 有 重要 作用 ,例如 ， 
Castillo 等 人 aa 这 结合 图 像 语义 分 割 的 方法 对 图 像 中 特定 
的 对 象 进行 风格 迁移 。Li ABR 的 工作 结合 图 像 融合 
技术 为 用 户 提供 了 友好 的 交互 。Gatys & A BRR BM 使 用 图 像 
颜色 迁移 方法 来 实现 风格 化 图 像 的 颜色 控制 。Li A 
E 对 风格 化 图 像 进 行 后 期 的 图 像 局 部 平滑 处 理 以 获得 照片 般 的 
效果 ， 如 图 4 所 示 。 因 此 ， 结 合 有 效 的 预 处 理 和 后 处 理 方法 是 
提高 风格 迁移 结果 的 重要 手段 。 


Gatys 等 人 方法 


al 
ng 
T 


F 滑 处 理 


对 
b 
对 


像 后 处 理 效 果 对 比 
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本 文 对 基于 深度 学 习 的 图 像 风 格 迁移 进行 了 详细 的 介绍 ， 
对 其 应 用 前 景 、 存 在 问题 和 发 展 方向 展开 了 深入 的 探讨 和 分 析 。 
有 然 目 前 已 经 有 了 成 功 的 应 用 案例 ， 但 是 距离 广泛 的 商业 应 用 
还 有 较 大 的 距离 ， 需 要 更 进一步 的 研究 和 完善 。 总 体 而 言 ， 基 
于 深度 学 习 的 图 像 风 格 迁 移 是 一 个 具有 挑战 性 的 新 兴 课题 ， 它 
不 仅 受到 了 学 术 界 的 广泛 关注 ， 而 且 在 工业 界 中 也 有 很 大 的 需 
求 ， 具 有 重要 的 研究 意义 和 广阔 的 应 用 前 景 。 
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